HashTag分段,也称为HashTag分解,是用于社交媒体数据集的预处理流水线的共同步骤。它通常先于情绪分析和仇恨语音检测等任务。对于中期到低资源语言的情感分析,以前的研究表明,一种多语言方法,即机器翻译的多语言方法可以竞争或优于任务的先前方法。我们开发了零拍摄具有零点的分割框架,并演示了如何用于提高多语言情感分析管道的准确性。我们的零拍摄框架为HASHTAG分割数据集建立了新的最先进的,甚至超过了以前的方法,依赖于在域内数据的特征工程和语言模型。
translated by 谷歌翻译
Stress has a great effect on people's lives that can not be understated. While it can be good, since it helps humans to adapt to new and different situations, it can also be harmful when not dealt with properly, leading to chronic stress. The objective of this paper is developing a stress monitoring solution, that can be used in real life, while being able to tackle this challenge in a positive way. The SMILE data set was provided to team Anxolotl, and all it was needed was to develop a robust model. We developed a supervised learning model for classification in Python, presenting the final result of 64.1% in accuracy and a f1-score of 54.96%. The resulting solution stood the robustness test, presenting low variation between runs, which was a major point for it's possible integration in the Anxolotl app in the future.
translated by 谷歌翻译
The Elo algorithm, due to its simplicity, is widely used for rating in sports competitions as well as in other applications where the rating/ranking is a useful tool for predicting future results. However, despite its widespread use, a detailed understanding of the convergence properties of the Elo algorithm is still lacking. Aiming to fill this gap, this paper presents a comprehensive (stochastic) analysis of the Elo algorithm, considering round-robin (one-on-one) competitions. Specifically, analytical expressions are derived characterizing the behavior/evolution of the skills and of important performance metrics. Then, taking into account the relationship between the behavior of the algorithm and the step-size value, which is a hyperparameter that can be controlled, some design guidelines as well as discussions about the performance of the algorithm are provided. To illustrate the applicability of the theoretical findings, experimental results are shown, corroborating the very good match between analytical predictions and those obtained from the algorithm using real-world data (from the Italian SuperLega, Volleyball League).
translated by 谷歌翻译
There is an increasing need in our society to achieve faster advances in Science to tackle urgent problems, such as climate changes, environmental hazards, sustainable energy systems, pandemics, among others. In certain domains like chemistry, scientific discovery carries the extra burden of assessing risks of the proposed novel solutions before moving to the experimental stage. Despite several recent advances in Machine Learning and AI to address some of these challenges, there is still a gap in technologies to support end-to-end discovery applications, integrating the myriad of available technologies into a coherent, orchestrated, yet flexible discovery process. Such applications need to handle complex knowledge management at scale, enabling knowledge consumption and production in a timely and efficient way for subject matter experts (SMEs). Furthermore, the discovery of novel functional materials strongly relies on the development of exploration strategies in the chemical space. For instance, generative models have gained attention within the scientific community due to their ability to generate enormous volumes of novel molecules across material domains. These models exhibit extreme creativity that often translates in low viability of the generated candidates. In this work, we propose a workbench framework that aims at enabling the human-AI co-creation to reduce the time until the first discovery and the opportunity costs involved. This framework relies on a knowledge base with domain and process knowledge, and user-interaction components to acquire knowledge and advise the SMEs. Currently,the framework supports four main activities: generative modeling, dataset triage, molecule adjudication, and risk assessment.
translated by 谷歌翻译
近年来,深入的强化学习(RL)在各种组合搜索领域(例如两人游戏和科学发现)中都取得了成功。但是,直接在计划域中应用深度RL仍然具有挑战性。一个主要的困难是,如果没有人工制作的启发式功能,奖励信号除非学习框架发现任何解决方案计划,否则奖励信号将保持零。随着计划的最小长度的增长,搜索空间变为\ emph {指数更大},这是计划实例的严重限制,该实例的计划最小计划长度为数百到数千步。以前的学习框架可以增强使用深神经网络和额外生成的子观念的图形搜索在各种具有挑战性的计划域中取得了成功。但是,生成有用的子目标需要广泛的领域知识。我们提出了一种独立于域的方法,该方法可以通过图值迭代来增强图形搜索,以求解针对域特有的求解器无法实现的硬计划实例。特别是,我们的方法还没有仅从发现的计划中获得学习信号,而是从未达到目标状态的失败尝试中学习。图值迭代组件可以利用本地搜索空间的图形结构并提供更有信息的学习信号。我们还展示了如何使用课程策略来平滑学习过程并对图形值迭代量表的完整分析并实现学习。
translated by 谷歌翻译
序数模式的统计分析的最终目的是表征它们诱导的特征的分布。特别是,了解大类时间序列模型的对熵统计复杂性的联合分布将允许迄今无法获得的统计测试。在这个方向上工作,我们表征了Shannon经验的渐进分布,用于任何模型,在此模型中,真正的归一化熵既不为零也不为零。我们从中心极限定理(假设大时间序列),多元增量方法和其平均值的三阶校正获得了渐近分布。我们讨论了其他结果(精确,一阶和二阶校正)有关其准确性和数值稳定性的适用性。在建立有关香农熵的测试统计数据的一般框架内,我们提出了双边测试,该测试验证是否有足够的证据拒绝以下假设,即两个信号产生了具有相同Shannon熵的顺序模式。我们将此双边测试应用于来自三个城市(都柏林,爱丁堡和迈阿密)的每日最高温度时间序列,并获得了明智的结果。
translated by 谷歌翻译
上下文:如今提供的电视连续剧数量很高。由于其大量数量,由于缺乏独创性,许多系列被取消了。问题:拥有一个决策支持系统,可以说明为什么某些节目取得了巨大的成功,或者不促进续签或开始演出的选择。解决方案:我们研究了由CW网络广播的系列箭头的情况,并使用了描述性和预测性建模技术来预测IMDB额定值。我们假设该情节的主题会影响用户的评估,因此数据集仅由该情节的导演,该情节所获得的评论数量,这是由潜在的Dirichlet分配提取的每个主题的百分比(LDA)的数量。情节的模型,来自Wikipedia的观众数量和IMDB的评分。 LDA模型是由单词组成的文档集合的生成概率模型。方法:在这项规范性研究中,使用了案例研究方法,并使用定量方法分析了结果。结果摘要:每个情节的特征,最能预测评分的模型是由于KNN模型的类似平方误差,但在测试阶段的标准偏差更好。可以用可接受的均方根误差为0.55预测IMDB评级。
translated by 谷歌翻译
法律判决预测是NLP,AI和法律联合领域最受欢迎的领域之一。通过法律预测,我们是指能够预测特定司法特征的智能系统,例如司法结果,司法阶级,可以预测特定案例。在这项研究中,我们使用AI分类器来预测巴西法律体系中的司法结果。为此,我们开发了一个文本爬网,以从巴西官方电子法律系统中提取数据。这些文本构成了二级谋杀和主动腐败案件的数据集。我们应用了不同的分类器,例如支持向量机和神经网络,通过分析数据集中的文本功能来预测司法结果。我们的研究表明,回归树,封闭的重复单元和分层注意力网络给出了不同子集的较高指标。作为最终目标,我们探讨了一种算法的权重,即分层注意力网络,以找到用于免除或定罪被告的最重要词的样本。
translated by 谷歌翻译
在极端分辨率上监测植被生产力对于现实世界中的农业应用非常有价值,例如检测作物压力和提供粮食不安全的预警。太阳能诱导的叶绿素荧光(SIF)提供了一种直接从空间中测量植物生产力的有希望的方法。但是,卫星SIF观察只能以粗空间分辨率进行,因此无法监视单个农作物类型或农场的表现。这构成了一个具有挑战性的粗略监督回归(或缩小)任务;在训练时,我们只有粗分辨率(3公里)的SIF标签,但我们希望以更精细的空间分辨率预测SIF(例如30m,增加了100倍)。我们还具有其他精细分辨率输入功能,但是这些功能与SIF之间的关系尚不清楚。为了解决这个问题,我们提出了一种粗糙的平滑U-NET(CS-Sunet),这是这种粗糙监督设置的新方法。 CS-Sunet基于先验知识(例如平滑度损失),将深卷卷网络的表达能力与新颖的正则化方法相结合,这对于防止过度拟合至关重要。实验表明,CS-Sunet比现有方法更准确地解决SIF中的细粒变化。
translated by 谷歌翻译
确定公民的多样化和经常竞争的价值,并解决随之而来的公共价值冲突,对于包容性和综合城市发展至关重要。学者们强调,具有关系的,具有价值的城市空间引起了许多不同的冲突,它们在空间和时间上都不同。尽管理论上已经构思了公共价值冲突的概念,但很少有实证研究确定这种价值观及其在城市空间中的冲突。本文以公共价值理论为基础,并使用案例研究的混合方法方法,提出了一种新的方法来研究城市空间中的公共价值冲突。使用汉堡,德国公共参与地理信息系统的4,528个公民贡献的非结构化参与数据,使用自然语言处理和空间聚类技术来识别潜在价值冲突的领域。四个专家研讨会评估和解释这些定量发现。整合定量和定性结果,19个普通公众价值观和9个原型冲突。根据这些结果,本文提出了一种新的公共价值领域概念工具,该工具扩展了公共价值冲突的理论概念,并有助于进一步说明城市空间的价值。
translated by 谷歌翻译